簡介:近些年,大數據已經成為各大企業,乃至整個社會關注的重要資源,未來數據管理能力也將成為企業的核心競爭力。正因如此,大數據相關崗位的人員需求和薪資也水漲船高。
如果你是:
—計算機專業在校生,未來準備從事大數據相關崗位的同學;
—想要轉行大數據的Java崗位工作者;
—對大數據感興趣的軟件行業從業者,希望在大數據領域有所提升;
那么恭喜,你來對地方了!
想學習大數據,就繞不開Hadoop,它是整個大數據生態體系的基礎。本課程為Hadoop3.0入門課程,從0開始,帶你手寫代碼。課程知識點完整詳細,采用原理與實踐結合的講解方式,配套互聯網企業真實項目進行講解。
在本門課程中,你可以收獲:
—了解Hadoop的核心原理及Hadoop3.0中的新特性
—掌握Hadoop集群的安裝部署
—掌握PB級海量日志數據的存儲方法
—掌握企業中海量數據的計算方法
—掌握Sqoop在HDFS導出數據至MySQL中的使用
—掌握Hadoop中自定義序列化數據類型在數據分析中的應用
—掌握大數據任務自動化執行腳本的封裝和監控
通過本課程的學習,你可以了解Hadoop中的三大核心組件及原理;獨立完成Hadoop分布式集群的安裝部署;實現大數據中的海量數據存儲和海量數據計算。
目前各行各業都處于數據的快速增長期,特別是互聯網行業,企業中對大數據的需求會越來越多,本門課程可以幫助大家快速入門大數據,提升自身技術能力。
第1章 課程介紹
本章中會介紹學習內容,演示項目效果,梳理課程中使用到的工具,軟件,以及本課涵蓋的技術棧、重難點。
第2章 Hadoop整體概述
本章主要是從整體層面上對Hadoop中的核心組件進行了分析,以及Hadoop在整個大數據生態圈中的作用,這樣可以幫助學員快速了解Hadoop的核心作用和功能,為后面的深入學習打下基礎。
第3章 Hadoop集群部署
本章主要分析了目前企業中大數據集群的選型以及如何使用原生Apache Hadoop搭建集群,還會分析一下Hadoop客戶端這個角色的作用,通過本章的學習,學員可以掌握實際企業中如何使用Hadoop集群。
第4章 分布式存儲(HDFS)詳解
本章主要針對Hadoop中的分布式存儲(HDFS)模塊進行詳細分析,通過本章的學習,學員可以掌握HDFS的工作原理和常見的操作。
第5章 分布式計算(MapReduce)詳解
本章針對Hadoop中的MapReduce計算框架進行了詳細分析,結合具體案例一步一步分析Map階段和Reduce階段的執行流程以及數據變化。通過原理和案例的結合,可以加深學員對MapReduce執行原理的理解和認識。
第6章 資源調度器(Yarn)詳解
本章主要介紹了Yarn的三種資源調度器,通過本章的學習,學員可以掌握實際生產環境下大數據集群中資源調度器的選擇依據。
第7章 案例:直播平臺開播數據統計分析
本章結合互聯網公司中的直播平臺相關業務數據進行分析統計,可以將前面學習到的理論性知識應用在具體的業務場景中,提高代碼實戰能力,通過一個完整的項目開發流程來實現,也增加了任務的外圍監控、故障重啟、失敗預警等功能,使項目更加完整,通過本章的學習,可以讓學員真正掌握實際企業中大數據任務的開發流程。
第8章 課程回顧與總結
結合思維導圖,回顧課程中用到的技術,總結一下經驗,提出項目中可以進一步完善的功能。
解鎖即可觀看《大數據工程師》完整課程視頻
大數據工程師
硬核技能帶你攻克熱點商業項目,從入門直達中級工程師水平,掌握DT時代淘金利器!
【第1周】學好大數據先攻克Linux
【第2周】大數據起源之初識Hadoop
【第3周】Hadoop之HDFS的使用
【第4周】Hadoop之HDFS核心進程剖析
【第5周】Hadoop之初識MR
【第6周】拿來就用的企業級解決方案
【第7周】Flume從0到高手一站式養成記
【第8周】數據倉庫Hive從入門到小牛
【第9周】Hive擴展內容
【第10周】快速上手NoSQL數據庫HBase
【第11周】數據分析引擎之Impala
【第12周】7天極速掌握Scala語言
【第13周】Spark快速上手
【第14周】Spark性能優化的道與術
【第15周】Spark3.x擴展內容
【第16周】綜合項目:電商數據倉庫之用戶行為數倉
【第17周】綜合項目:電商數據倉庫之商品訂單數倉
【第18周】消息隊列之Kafka從入門到小牛
【第19周】極速上手內存數據庫Redis
【第20周】Flink快速上手篇
【第21周】Flink高級進階之路
【第22周】Flink1.15新特性及狀態的使用
【第23周】Flink1.15之狀態的容錯與一致性
【第24周】FlinkSQL(1.15)快速上手
【第25周】FlinkSQL雙流JOIN詳解
【第26周】全文檢索引擎Elasticsearch
【第27周】Es+HBase仿百度搜索引擎項目
【第28周】直播平臺三度關系推薦V1.0
【第29周】直播平臺三度關系推薦V2.0
【第30周】數據中臺大屏
【第31周】實時OLAP引擎之ClickHouse
【第32周】實時數倉-Kafka Eagle+DS
【第33周】實時數倉-Flink CDC數據采集
【第34周】實時數倉-Paimon(數據湖)快速上手
【第35周】實時數倉-Paimon(數據湖)高級進階
【第36周】實時數倉-湖倉一體項目
【第37周】一站式流式開發平臺StreamPark
【第38周】大數據分布式SQL網關Kyuubi